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摘 要 统计 推断 在 科学 研究 中 起 到 关键 作用 ， 然 而 当前 科研 中 最 常用 的 经 典 统 计 方法 


一 一 零 假设 检验 (Null hypothesis significance test, NHST) 却 因 难 以 理解 而 被 部 分 研究 者 误 用 


或 滥用 。 有 研究 者 提出 使 用 贝 叶 斯 因子 (Bayes factor) 作为 一 种 替代 和 【或 ) 补充 的 统计 方 


法 。 贝 叶 斯 因子 是 贝 叶 斯 统计 中 用 来 进行 模型 比较 和 假设 检验 的 重要 方法 ， 其 可 以 解读 为 对 
零 假设 匈 或 者 备 择 假设 友 的 支持 程度 。 其 与 NHST 相 比 有 如 下 优势 : 同时 考虑 A A H FFT 


以 用 来 文 持 夯 、 不 “严重 ”地 倾向 于 反对 Ho、 可 以 监控 证 据 强 度 的 变化 以 及 不 受 抽样 计划 的 


影响 。 目 前 ， 贝 叶 斯 因子 能 够 很 便捷 地 通过 开放 的 统计 软件 JASP 实现 ， 本 文 以 贝 叶 斯 1 检验 


进行 示范 。 贝 叶 斯 因子 的 使 用 对 心理 学 研究 者 来 说 具有 重要 的 意义 ， 但 使 用 时 需要 注意 先 验 


分 布 选择 的 合理 性 以 及 保持 数据 分 析 过 程 的 透明 与 公开 。 


关键 词 贝 叶 斯 因子 , 贝 叶 斯 学 派 , 频率 学 派 , 假设 检验 , JASP 


自 20 世纪 以 来 ， 统 计 推 断 在 科学 研究 中 起 到 越 来 越 重 要 的 作用 (Salsburg, 2001)， 科 学 研 


究 结论 的 正确 性 也 越 来 越 依 赖 于 统计 推断 的 正确 应 用 。 目 前 ， 使 用 最 为 广泛 的 统计 推断 方法 


是 零 假 设 检验 (Null hypothesis significance testing, NHST) (Wasserstein & Lazar, 2016). 


与 NHST 在 各 个 领域 中 广泛 使 用 相伴 的 是 研究 者 对 NHST 及 p 值 的 误解 和 盲目 使 用 (Gigerenzer, 


2004; Greenland et al., 2016; Ziliak & McCloskey, 2008; 胡 传 鹏 等 


, 2016; 骆 大 森 , 2017)， 因 此 带 


来 一 些 消极 的 后 果 。 例 如 ，P 值 被 用 来 支持 不 合理 且 无 法 重复 的 研究 结果 (如 , Bem, 2011), 4] 


起 了 关于 NHST 是 否 适合 于 科学 研究 的 争论 (Miller, 2011)。 在 这 个 背景 之 下 ， 


用 贝 叶 斯 因子 蔡 代 NHST(Wagenmakers, Wetzels, Borsboom, & van der Maas, 2011; 4 


Z., 陈 中 永 , 2017)。 


有 研究 者 推荐 使 


HÆÆ, Dienes, 


贝 叶 斯 因子 (Bayes factor) 是 贝 叶 斯 统计 (Bayesian statistics) 中 用 来 进行 模型 比较 和 假 


设 检验 的 方法 。 在 假设 检验 中 ， 其 代表 的 是 当前 数据 对 零 假 设 与 备 择 假设 文 持 的 强度 之 间 的 


比率 。 正 如 下 一 节 将 要 详 述 的 ， 贝 叶 斯 因子 能 够 量 


在 各 个 学 科 的 研究 中 并 未 获得 广泛 应 用 。 


功 ， 如 (Zhu, Chen, Hu, & Zhang, 2017)。 贝 叶 斯 统计 的 工具 迅 


量化 地 


因此 可 能 更 加 适用 于 科研 中 的 假设 检验 。 但 由 于 贝 叶 斯 因子 的 统计 原 到 


近年 来 ， 随 着 计算 机 运算 能 力 的 大 大 提升 ， 贝 叶 斯 统计 在 计算 机 等 


领域 获得 了 巨大 


及 实现 相对 复杂 ， 


也 反映 当前 数据 对 各 个 假设 支持 的 程度 ， 


其 


的 成 


速 发 展 ， 如 WinBUGs (Lunn, 


Spiegelhalter, Thomas, & Best, 2009), JAGS (Plummer, 2003)、Stan (Carpenter et al., 2017) 和 


python 语言 的 工具 包 PyMC3 Chttp://docs.pymc.io/index.html) 等 


这 些 软件 和 工具 包 的 出 现 ， 


促进 贝 叶 斯 方法 在 各 个 研究 领域 中 的 使 用 (Depaoli & van de Schoot, 2017; van de Schoot, Winter, 


Ryan, Zondervan-Zwijnenburg, & Depaoli, 2017)。 在 这 些 工 具 中 ， 也 出 现 了 用 于 计算 贝 叶 斯 


子 的 工具 ， 如 及 语言 中 的 BayesFactor (http://bayesfactorpcl.r-forge.r-project.org/)。 在 心 


理学 及 


相关 领域 ， 最近 


有 不 少 研究 者 试图 引入 贝 叶 斯 统计 的 方法 


(Dienes, 2008, 2011, 2014; Hoijtink, 


2011; Klugkist, Laudy, & Hoijtink, 2005; Kruschke, 2014; Masson, 2011; Morey & Rouder, 2011; 


Mulder et al., 2009; Rouder, Morey, Speckman, & Province, 2012; Rouder, Speckman, Sun, Morey, & 


Iverson, 2009; Vanpaemel, 2010; Wagenmakers, Lodewyckx, Kuriyal, & Grasman, 2010)。 在 心理 学 


(Open Science Collaboration, 2015; 胡 传 鹏 等 
& Xing, 2014)" 
对 于 不 少 心理 


领域 出 现 “重复 危机 ”的 背景 之 下 ， 使 用 合 至 


, 2016)、 神 经 成 像 研究 (Chen, Lu, & Yan, 2018; Zuo 


的 统计 方法 显得 更 加 人 迫切。 但 


学 及 相关 领域 的 研究 者 来 说 ， 使 用 R 语言 或 其 他 计算 机 语言 进行 贝 叶 斯 因子 计 


难 。 为 解决 这 一 障碍 ， 研 究 者 们 开发 了 与 商业 统计 软件 SPSS 具有 相似 图 形 界 面 


的 统计 工具 JASP (https://jasp-stats.org/, JASP team 2017) (JASP Team, 2017; Marsman & 


Wagenmakers, 2016a; Wagenmakers, Love, et al., 2017; Wagenmakers, Marsman, et al., 2017)， 简 化 


了 贝 叶 斯 因子 的 计算 。 


如 何 使 用 JASP 计算 贝 叶 斯 因子 ， 以 及 如 何 解读 和 报 


子 的 应 用 价值 及 其 不 足 。 


1 贝 叶 斯 因子 的 原理 


贝 叶 斯 统计 的 原理 。 


1.1 


个 学 派 ， 


贝 叶 斯 因子 是 贝 叶 


贝 叶 斯 统计 简介 


本 文 旨 在 为 向 心理 学 及 相关 学 科 的 研究 者 介绍 贝 叶 斯 因子 及 其 使 用 。 首 先 本 文 将 介绍 由 


叶 斯 因子 的 原理 ， 及 其 相对 于 传统 假设 检验 中 p 值 的 优势 ， 再 以 独立 样本 1 检验 为 例 ， 介 绍 了 


告 其 结果 。 在 此 基础 上 ， 讨 论 了 贝 叶 斯 因 


斯 统计 在 假设 检验 上 的 应 用 ， 


因此 要 理 


解 贝 叶 


| 


斯 因子 ， 首 先 需要 理 和 


贝 叶 斯 学 派 (Bayesian statistics) 与 频率 学 派 〈Frequentist statistics) 是 统计 学 中 主要 的 两 


其 核心 的 差异 在 于 他 们 对 于 概率 (probability) 所 代表 的 意义 有 着 不 一 样 的 解读 。 对 于 


频率 学 派 而 言 ， 


大 程度 上 相信 茶 件 事 1 


斯 学 派 则 认为 ， 


概率 是 通 


+ H 


过 无 数 次 重复 抽样 中 频率 (frequency) 的 预期 值 。 与 之 相反 ， 贝 叶 


概率 是 对 一 件 事 情 的 相信 程度 ， 从 0 到 1 表示 人 们 基于 所 获得 的 信 


A, 在 多 


AEH. 


学 派 的 概率 是 具有 主观 性 。 但 贝 叶 斯 学 派 的 概率 却 不 是 任意 的 : 人 们 通过 合理 的 方 


获取 并 更 新 已 知 信息 ， 


可 以 最 终 消 除 主观 性 ， 从 而 达成 一 致 。 


正 由 于 频率 学 派 将 概率 看 作 长 期 行为 表现 的 结果 ， 要 理解 频率 学 派 的 概率 ， 


由 于 不 同人 对 同一 事件 的 相信 程度 可 能 不 同 ， 因 此 ， 


贝 叶 斯 
式 ， 不 断 


通常 需要 假 


想 尚 未 发 生 的 事件 。 例 如 ， 在 NHST 框架 之 下 , p 值 的 意义 是 假定 Ao 为 真 的 情况 下 ， 出 现 当 


前 结果 及 比 当前 结果 更 加 极端 结果 的 概率 。 换 名 话说 ，P 值 表达 的 意思 是 : 假如 Ho 


果 采 用 完全 相同 的 条 件 ， 无 数 次 地 重复 当前 实验 ， 这 些 实验 中 将 有 多 大 比例 会 出 现 
模式 或 者 比 当前 结果 模式 更 极端 的 模式 。 因 此 ，p 值 的 意义 暗含 一 


为 真 ， 如 


当前 结果 


个 重要 的 假设 : 我 们 能 够 无 


数 次 地 重复 试验 。 但 研究 者 却 经 常 忽略 这 种 无 数 次 重复 相同 试验 的 假定 ， 误 认为 p 值 是 单 次 


检验 中 拒绝 零 假设 时 犯错 误 的 概率 (Greenland, et al., 2016)。 这 种 对 NHST 的 误解 ， 


贝 叶 


斯 统计 色彩 


与 频率 学 派 统计 不 同 ， 贝 叶 


， 即 根据 当前 的 数据 计算 茶 个 模型 正确 或 者 错误 的 概率 。 


恰好 是 带 有 


斯 统计 最 大 的 特点 之 一 在 于 : 它 考虑 了 不 同 可 能 性 对 于 个 体 


来 说 的 可 信 度 〈credibility) (Kruschke, 2014)。 而 通过 不 断 获 得 的 数据 ， 人 们 可 以 改变 对 不 同 


能 性 的 相应 程度 。 这 种 思维 方式 与 人 们 在 日 常生 活 中 的 经 验 非 常 相 似 : 当 我 们 不 断 地 获得 
支持 茶 个 观点 的 证 据 时 ， 我 们 会 更 加 相信 该 观点 。 

虽然 贝 叶 斯 统计 对 概率 的 理解 与 频率 学 派 不 同 ， 但 是 其 对 概率 的 计算 却 严格 依照 概率 的 
基本 原则 : 加 法 原则 与 乘法 原则 。 贝 叶 斯 统计 中 最 核心 的 贝 叶 斯 法 则 (Bayes rule)， 也 是 根 
据 简 单 的 加 法 原则 与 乘法 原则 推导 而 来 。 依 据 概率 的 乘法 原则 ， 随 机 事件 A 与 随机 事件 B E 
时 发 生 的 概率 为 : 


p(ANB) = p(A|B) x p (B) = p(BIA) x p(A) 公式 1 
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公式 1 即 为 联合 概率 的 公式 ， 即 A 与 B 同时 发 生 的 概率 。 其 意义 为 : A 与 B 的 联合 概率 
(p(ANB)) 为 ,在 B 发 生 的 条 件 下 A 发 生 的 概率 (p(A|B)) 与 B 发 生 的 的 概率 (p(B)) 的 乘 
积 ， 也 等 于 在 A 发 生 的 条 件 下 B 发 生 的 概率 (p(BIA)) 与 A 发 生 的 概率 (p(A)) 的 乘积 。 其 
中 ，p(A|B) 和 p(B|A) 均 为 条 件 概率 (conditional probability)， 二 者 意义 不 同 。 
对 公式 1 进行 变换 ， 即 可 以 得 到 如 下 公式 : 


=, BAGS) BA xo) Ir 
PIB) = e  P® 公式 2 


公式 2 即 为 贝 叶 斯 定理 公式 。 其 代表 的 意义 是 ， 如 果 我 们 要 计算 B 发 生 的 条 件 下 ARE 


的 概率 (p(AIB))， 可 以 通过 使 用 A 与 B 同 时 发 生 的 概率 (p(ANB)) 除 以 B 发 生 的 概率 (p(B))， 
也 就 等 于 在 A 发 生 的 条 件 下 B 发生 的 概率 ， 与 A 发 生 概 率 的 乘积 ， 再 除 以 B 发 生 的 概率 。 公 


式 2 将 两 个 条 件 概率 联系 起 来 ， 从 而 使 得 计算 不 同 的 条 件 概 率 成 为 可 能 。 


在 贝 叶 斯 统计 的 框架 之 下 ， 公 式 2 可 以 看 作 是 一 次 信息 的 更 新 。 假 定 我 们 需要 根据 一 次 


实验 收集 到 的 数据 〈data) 来 检验 某 个 理论 模型 为 真 的 可 能 性 。 以 心理 学 研究 中 常用 的 零 假 


设 而 为 例 ， 则 可 以 将 公式 2 改写 如 下 : 
p(H,|data) = p(data|Ho) xp(Ho) 公式 3 


p (data) 


p(Holdata) 表 示 数 据 更 新 之 后 理论 模型 Ho 正确 的 概率 ， 即 Se BE (posterior); p (Go) 表 


示 更 新 数据 之 前 认为 理论 模型 Ho IE IS, BI ZEAE (rior); 而 p(data| Fo) 则 是 在 模型 


HZ T, EMAAR, ZZM (marginal likelihood)。 由 此 可 以 看 出 ， 在 贝 叶 


斯 统计 之 中 ， 一 次 数据 收集 (实验 ) 的 主要 功能 在 于 帮助 我 们 更 新 理论 模型 的 可 信 度 。 


根据 公式 3， 我 们 可 以 使 用 数据 对 任意 的 模型 为 真 的 概率 进行 更 新 。 在 假设 检验 中 ， 我 


们 可 以 根据 观测 数据 同时 对 零 假设 (理论 模型 Ho〉 和 备 择 假设 (理论 模型 A) 的 可 信 度 进行 


更 新 (分 别 见 公式 3 和 公式 4)， 得 到 它们 更 新 的 后 验 概率 。 


_ p(data|H,) xp(n) JN 
plHildata) = Pe 公式 4 


得 到 Ho Wl i 的 后 验 概 率 后 ， 可 能 对 两 者 进行 比较 ， 即 公式 5: 


p(Hildata) _ p(data|H,) p(H1) pi 
plHoldata)  p(data|Ho) ~~ po) 公式 5 


其 中 ， 贝 叶 斯 因子 为 : 


— p(data | H1) IN 
BF io p(data | Ho) 全 式 © 


在 公式 6 中 ，BFio 下 标的 1 代表 的 是 所 ，0 代表 的 是 Ao, AE, Bio BI ACR He MiG Ho 


对 比 的 贝 叶 斯 因子 ， 而 BFo 则 代表 的 是 Ao 页 对 比 的 贝 叶 斯 因子 。 例 如 ，BFio = 19 表示 的 


是 ， 在 备 择 假设 A 为 真 条 件 下 出 现 当前 数据 的 可 能 性 是 虚无 假设 Ho 条 件 下 出 现 当前 数据 的 


可 能 性 的 19 倍 。 从 这 个 定义 公式 中 可 以 看 出 ， 贝 叶 斯 因子 是 体现 了 当前 数据 将 先 验 概率 更 新 


为 后 验 概 率 过 程 中 的 变化 。 


正 是 如 此 ， 贝 叶 斯 因子 与 NHST 回答 了 不 同 的 问题 。NHST 试图 回答 “假定 我 们 已 知 两 个 


变量 的 关系 〈 如 ， 两 种 条 件 没有 差异 )， 出 现 当前 观测 数据 的 模式 或 者 更 加 极端 模式 的 概率 


(p(more extreme > observed data | Ho)) 有 多 大 ”的 问题 ， 而 贝 叶 斯 因子 试图 回答 的 是 :“ 在 当 


前 数据 更 可 能 在 哪个 理论 模型 下 出 现 ” 的 问题 。 在 假设 检验 中 ， 贝 叶 斯 因子 具有 一 些 NHST 


不 具备 的 优势 〈 见 表 1)， 下 一 小 节 将 对 这 些 优 势 进行 详细 说 明 。 


表 1. 假设 检验 中 贝 叶 斯 推断 与 传统 NHST 推断 的 比较 


假设 检验 中 的 问题 贝 叶 斯 因子 ”传统 推理 参考 文献 
1. 同时 考虑 Ho Al Ah 的 支持 证 据 V x 10, 11 
2. 可 以 用 来 支持 Ho V x 12, 13 
3. 不 “严重 ”地 倾向 于 反对 Ho V x 14, 15, 16 
4. 可 以 随 着 数据 累积 来 监控 证 据 的 强度 V x 17, 18 
5. 不 依赖 于 未 知 的 或 者 不 存在 的 抽样 计划 V x 19, 20 


VE: 10 = Jeffreys (1935); 11 = Jeffreys (1961); 12 = Rouder, et al. (2009); 13 = Wagenmakers (2007); 14 = 
Edwards (1965); 15 = Berger and Delampady (1987); 16 = Sellke, Bayarri, and Berger (2001); 17 = Edwards, 


Lindman, and Savage (1963); 18 = Rouder (2014); 19 = Berger and Berry (1988); 20 = Lindley (1993). 


在 Jeffreys (1961) 的 基础 上 ，Wagenmakers, et al. (2017) 对 贝 叶 斯 因子 的 大 小 所 代表 的 意义 


进行 原则 上 的 划分 〔 见 表 2)。 但 是 这 个 划分 仅 是 大 致 参考 ， 不 能 严格 对 应 ， 研 究 者 需要 根据 
R 


体 的 研究 来 判断 贝 叶 斯 因子 的 意义 。 


表 2. 贝 叶 斯 因子 决策 标准 


贝 叶 斯 因 了 于 , BF io 解释 
> 100 极 强 的 证 据 支 持 Hi 
30 - 100 非常 强 的 证 据 支持 Al 
10 - 30 较 强 的 证 据 支 持 Hi 
3-10 中 等 程度 的 证 据 支 持 M 
1-3 较 弱 的 证 据 支 持 Hi 
1 没有 证 据 
1/3-1 较 弱 的 证 据 支持 Ho 
1/10— 1/3 中 等 程度 的 证 据 支 持 Ho 
1/30 — 1/10 较 强 的 证 据 支 持 Ho 
1/100 — 1/30 非常 强 的 证 据 支持 Ho 


<1/100 极 强 的 证 据 支 持 Ho 


1.2 备 择 假 设 的 默认 先 验 


由 于 贝 叶 斯 因子 中 先 验 概率 具有 人 至 关 重 要 的 作用 ， 如 何 选择 备 择 假设 的 先 验 分 布 变 得 万 


其 重要 。 其 中 一 个 较为 合理 的 做 法 是 ， 根 据 茶 问题 的 先前 研究 结果 《如 元 分 析 得 到 的 效应 量 ) 


来 设 定 备 择 假 设 的 先 验 分 布 。 但 这 种 做 法 在 很 多 情况 下 并 不 现实 : 首先 根据 范式 的 不 同 ， 效 


应 量 的 可 能 分 布 不 同 ;， 更 重要 地 ， 由 于 许多 研究 本 身 具有 一 定 的 探索 性 ， 并 没有 先前 研究 结 


果 作 为 指导 。 因 此 ， 更 加 常用 的 做 法 是 使 用 一 个 综合 的 、 标 准 化 的 先 验 。 


例如 ， 在 贝 叶 斯 1 检验 中 ， 使 用 柯 西 分 布 (Cauchy distribution〉 作 为 备 择 假设 的 先 验 可 能 


是 比较 合理 的 选择 (Jeffreys, 1961; Ly, Verhagen, & Wagenmakers, 2016a, 2016b; Rouder, et al., 


2009)。 与 标准 正 态 分 布 相 比 ， 柯 西 分 布 在 0 附近 概率 密度 相对 更 小 一 些 ， 因 此 其 比 标准 的 正 


态 允 许 更 多 较 大 的 效应 〈 见 图 1); 而 与 均匀 分 布 《 即 效应 量 在 所 有 值 上 的 分 布 完 全 相同 ) 相 


比 ， 柯 西 分 布 更 偏好 零 假设 一 些 (Jeffreys, 1961; Rouder, et al., 2009)。 因 此 ， 对 于 备 择 假设 的 先 
验 分 布 ， 可 以 如 下 表示 : 


ô ~ Cauchy(xo = 0,y = 1) 


— Normal — Cauchy 


0.4 
0.3 
四 
oe 0.2 
0.1 
2 -6 3 0 3 6 
N 
per X 
GS 图 1 柯 西 分 布 与 正 态 分 布 的 对 比 
© 
~ Jeffreys (1961) 最 早 提出 在 贝 叶 斯 因子 中 使 用 柯 西 分 布 作为 先 验 来 比较 两 样本 的 问题 。 最 


CN 近 研 究 者 的 进一步 验证 表明 ， 柯 西 分 布 可 以 作为 先 验 用 于 计算 心理 学 研究 中 常用 的 贝 叶 斯 因 


子 分 析 ， 如 1 检验 (Rouder, et al., 2009)、ANOVA(Rouder, et al., 2012) 和 相关 分 析 (Ly, Marsman, 


& Wagenmakers, 2017; Ly, et al., 2016b) 等 。 这 些 验 证 性 的 工作 ， 为 贝 叶 斯 因子 在 心理 学 及 相关 


学 科研 究 中 的 应 用 打下 了 基础 。 


2 贝 叶 斯 因子 的 优势 
如 前 所 述 ， 在 假设 检验 中 ， 贝 叶 斯 因子 除了 更 加 符合 人 们 的 直觉 之 外 ， 还 具有 一 些 NHST 


所 不 具备 的 优势 。 这 些 优势 可 以 总 结 为 五 个 方面 〈 见 表 1)。 以 下 将 从 这 五 个 方面 展开 。 


2.1 AGS Ho A H 


贝 叶 斯 因子 的 计算 同时 考虑 Ho A A, HIRREN A HET Ho 和 H 为 真 的 先 验 概 率 进 


行 更 新 ， 在 此 基础 之 上 ， 比 较 在 当前 数据 下 哪个 理论 模型 (Ho 和 A) 更 合理 。 这 种 思路 与 
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NHST 不 同 : 在 NHST 框 架 之 下 ， 计 算 p 值 仅 需 要 假定 Ho 为 真 ， 而 对 A MAE, UE 


P 值 与 MICK. NHST 的 逻辑 是 ， 如 果 Fo 为 真 的 条 件 下 ， 观 凤 到 当前 数据 出 现 的 概率 非常 小 ， 


则 拒绝 Ao, #252 万。 这 种 情况 下 ，NHST 忽略 了 一 种 可 能 性 : 当前 数据 下 ， 本 为 真 的 概率 与 
色 为 真 的 概率 相当 或 者 更 小 (Wagenmakers, Verhagen, et al., 2017)。 例 如 ， 在 Bem (2011) "F, 


Ho 是 被 试 的 反应 不 受到 未 来 出 现 刺 激 的 影响 ，F 是 未 来 出 现 的 刺激 会 影响 到 被 试 当前 反应 ， 


即 被 试 能 够 “预知 ”尚未 出 现 的 刺激 。 虽 然 采 用 NHST 的 逻辑 Bem (2011) 得 到 了 p<0.05 的 结 


果 ， 即 抒 为 真 时 ， 得 到 当前 数据 的 概率 (p(datalH0)) 很 低 ， 因 此 作者 选择 拒绝 Ho eS Hi, 
认为 被 试 能 够 预知 未 来 出 现 的 刺激 。 然 而 ， 研 究 者 更 关心 的 是 ， 根 据 当 前 数据 ， 我 们 能 够 得 


到 某 个 模型 /假设 (如 页) 为 真 的 概率 (PCBildata))， 而 非 零 假 设 了 为 真 时 得 到 当前 数据 的 概 


率 (p(data| Ho))。 在 Bem (2011) 这 个 研究 中 ， 先 验 知 识 告诉 我 们 A 本 身 为 真 的 概率 可 能 非 党 


低 ， 在 当前 数据 模式 下 ， 忌 为 真 的 可 能 性 p(Aildatay Wry HELE Fo 为 真 的 可 能 性 p(Holdata) 更 低 


(Rouder & Morey, 2011; Wagenmakers, et al., 2011), {A NHST 却 完全 忽视 了 这 一 点 。 


2.2 可 以 用 来 支持 Ho 


同样 ， 由 于 贝 叶 斯 因子 同时 量化 当前 数据 对 夯 和 囊 各 自 的 文 持 强度 ， 其 可 以 用 来 支持 西 


(Dienes, 2014)。 但 是 ， 在 传统 的 NHST 框 架 之 下 ， 假 设 检验 仅 在 Ao ARE PET, (MSE 


借 小 于 显著 性 水 平 〈 比 如 0.05 或 0.005) 无 法 为 了 古 是 否 为 真 提供 证 据 。 比 如 ， 仅 依据 假设 检 


验 的 结果 p=0.2 FFA REE A UAA (evidence ofabsence)〈 除 非 结 合 样本 量 、 效 


应 量 和 统计 效力 Power 做 出 综合 判断 )。 


实际 的 研究 中 ， 能 够 对 提供 量化 的 证 据 具 有 非常 重要 的 意义 (Gallistel, 2009; Rouder, et 


al., 2009), “EA LAE WLR FRX ot A ULF AERA OY (evidence of absence) Fl KA 


WENGE A SF (absence of evidence) 这 两 种 情况 (Dienes, 2014)。 有 具体 来 说 ， 贝 时 斯 因子 的 


结果 有 三 种 状态 : (1) ERTE HA WEG CCI AUB RAARY); (2) SCH Ho 的 证 据 


(BI AURA RAB); 或 (3) UEP RTP ABA SCRE CAE W HI UER A A BOIL KE 


FEY). NEN, FIAT BFo = 15 表明 观察 到 的 数据 出 现在 Ho 为 真情 况 下 的 可 能 性 是 在 


A 为 真情 况 下 的 可 能 性 的 15 f, KH GAREM RARI 面 。 但是， 假如 


BFol = 1.5， 则 说 明 观 察 到 的 数据 出 现在 为 真情 况 下 的 可 能 性 是 在 Fi 为 真情 况 下 的 可 能 性 


的 1.5 倍 ， 则 说 明 当 前 数据 对 于 两 个 假设 的 支持 程度 相当 ， 姿 存 万 金 稚 证 奏 区 楷 Ho 或 者 H 


CWA 2 关于 贝 叶 斯 因子 大 小 意义 的 建议 )。 


值得 注意 的 是 ， 不 管 是 支持 所 ， 还 是 支持 Ho I 


斯 因子 提供 的 说 


F 据 是 相对 的 ， 即 相对 


于 某 个 假设 更 文 持 另 一 个 假设 ， 因 此 可 能 存在 第 三 个 模型 A EE 所 和 有 均 更 接近 真实 情况 ， 


具有 更 高 的 后 验 概率 。 值 得 指出 的 是 ， 最 近 有 研究 者 在 NHST 框架 之 下 发 展 出 可 以 接受 零 假 


设 的 方法 : 等 同性 检验 (Equivalence Test)。 这 种 方法 通过 设 定 多 个 回来 检验 效应 量 是 否 与 0 


没有 差异 ， 从 而 检验 是 否 能 接受 Ho(Lakens, 2017)。 但 等 同性 检验 仍然 使 用 了 p 值 ， 无 法 提供 


对 证 据 的 直接 测量 (Schervish, 1996). 


2.3 不 “严重 ”地 倾向 于 反对 Ho 


贝 叶 斯 因子 同时 分 别 量化 了 当前 数据 对 而 和 页 支持 的 强度 ， 其 与 传统 NHST 相 比 ， 其 对 


fo 和 后 的 支持 更 加 均衡 ， 从 而 其 拒绝 Ho W BARA A ER o 


在 传统 NHST 假 设 之 下 ， 只 要 研究 者 能 够 收集 足够 多 的 数据 ， 总 能 够 得 到 p < 0.05 从 而 拒 


贝 叶 斯 因子 收敛 的 讨论 )。 对 于 同样 的 数据 ，p 值 也 似乎 比 贝 叶 斯 因子 对 


绝 Ho， 与 之 相反 的 是 ， 贝 叶 斯 因子 会 随 着 数据 的 增加 而 逐渐 趋 于 稳定 〈 见 后 文 3.2 小 节 关 于 


Ho 的 反对 程度 更 强 。 


例如 ， 有 研究 者 分 析 了 美国 总 统 选举 中 候选 人 的 身高 与 当选 之 间 的 关系 ， 对 相关 系数 进行 显 


著 性 检验 之 后 发 现 r= 0.39，p = 0.007 (Stulp, Buunk, Verhulst, & Pollet, 2013)。 如 果 使 用 贝 叶 斯 


因子 分 析 ， 则 会 得 到 BFio = 6.33(Wagenmakers, Marsman, et al., 2017)。 虽 然 两 种 方法 大 致 上 


支持 了 同样 的 结论 〈“ 即 拒绝 Ao 与 中 等 程度 的 证 据 支 持 所 )， 但 是 从 pp 值 


上 上 看， 似乎 表明 拒绝 


Ao 的 证 据 很 强 ， 而 贝 叶 斯 因子 得 到 的 支持 则 是 有 保留 的 。Wetzels et al. (2011) 比 较 了 855 * t 


检验 的 结果 ， 发 现 虽 然 大 部 分 的 情况 下 p 值 与 贝 叶 斯 因子 在 结论 上 的 方 


向 一 致 ， 但 是 贝 叶 斯 


因子 相对 来 说 更 加 谨慎 : p 值 在 0.01 与 0.05 之 间 的 统计 显著 结果 ， 其 对 应 的 贝 叶 斯 因子 只 表 


明 有 非常 弱 的 证 据 。 对 传统 p 值 的 贝 叶 


2016b)。 


2.4 可 以 监控 证 据 的 强度 变化 


计算 贝 叶 斯 因子 时 ， 可 以 根据 数据 来 更 新 对 Ho 和 H LRE, A 


斯 解读 ， 详 见 (Johnson, 2013; Marsman & Wagenmakers, 


此 ， 随 着 新 数据 的 出 


现 ， 可 以 不 断 对 不 同 假设 的 支持 程度 进行 更 新 。 在 贝 叶 斯 框架 之 下 ， 贝 叶 斯 因子 的 计算 与 解 


读 均 不 需要 假定 存在 无 数 的 重复 实验 ， 而 是 按照 似 然 性 法 则 对 贝 叶 


据 的 出 现 顺序 不 会 影响 贝 叶 


斯 因子 的 解读 


(Rouder 2014)。 


贝 叶 斯 统计 的 框架 之 下 ， 不 需要 假定 无 数 次 重复 试验 ， 对 贝 叶 


斯 因子 进行 更 新 ， 此 外 数 


斯 因子 的 解读 不 会 受到 何 


时 停止 收集 数据 的 影响 (Rouder, 2014)。 实 际 上 ， 如 果 研 究 者 们 能 够 采用 序列 贝 叶 斯 因子 设计 ， 


在 实验 开始 前 提前 设置 贝 叶 


斯 因子 的 合理 


LE 疯 值 (通常 是 10， 即 较 强 的 这 


FE 据 ;， 则 能 够 在 实验 


中 根据 数据 增加 对 后 验 概率 进行 更 新 ， 可 以 在 适当 的 时 候 停止 收集 数据 (Schlaifer & Raiffa, 


1961; Schénbrodt, Wagenmakers, Zehetleitner, & Perugini, 2017)。 这 种 不 受到 停止 规则 影响 的 原 


则 ， 对 实际 研究 具有 重要 的 意义 ， 使 得 研究 者 能 合理 有 效 地 收集 数据 。 


2.5 不 受 抽 样 计划 的 影响 


抽样 计划 指 研究 者 根据 数据 分 析 的 假设 ， 在 研究 开始 之 前 对 样本 选择 以 及 数据 收集 过 程 


进行 计划 以 保证 数据 符合 统计 假设 。 例 如 ， 心 理学 实验 中 通常 采用 的 随机 抽样 以 及 随机 分 配 
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的 做 法 。 由 于 NHST 的 使 用 包含 了 一 些 潜 在 的 假设 ， 抽 样 计 划 〈 尤 其 是 功效 分 析 ，power 


analysis〉 对 于 解读 p 值 具有 重要 意义 (Halsey, Curran-Everett, Vowler, & Drummond, 2015). 


但 对 于 贝 叶 斯 因子 的 解读 ， 则 不 受到 抽样 计划 的 影响 ， 原 因 在 于 贝 叶 斯 因子 的 计算 使 用 


似 然 性 原则 (Berger & Wolpert, 1988)， 其 对 数据 的 分 析 没 有 预先 的 假设 。 换 句 话说 ， 即 使 研究 


者 对 数据 收集 的 过 程 不 清楚 ， 仍 能 够 计算 和 解读 贝 叶 斯 因子 。 这 个 特点 对 于 分 析 自 然 情境 中 


获得 的 数据 非常 实用 。 


仍然 以 上 述 的 美国 总 统 选举 中 候选 人 的 身高 与 当选 之 间 关 系 的 研究 为 例 ， 研 究 者 发 现 r= 


0.39, p=0.007 (Stulp, et al., 2013)。 在 NHST 框架 之 下 ， 要 对 p 值 进行 合理 的 解读 ， 我 们 必须 
假定 实验 者 在 总 统 选举 之 前 已 经 计划 好 进行 46 次 选举 ， 并 且 在 第 46 次 选举 后 停止 收集 数据 ， 
并 在 此 基础 之 上 计算 相关 系数 。 如 果 不 满足 这 些 假设 条 件 ，p = 0.007 代表 的 意义 很 难 解 读 。 
但 很 明显 的 是 ， 这 些 假设 是 不 成 立 的 。 


同样 ， 这 个 例子 还 包含 与 停止 规则 (stopping rule， 即 什么 条 件 下 停止 收集 数据 ) 相关 的 


问题 : 在 真实 的 生活 中 ， 美 国 的 总 统 选举 还 会 继续 ， 数 据 会 继续 增加 。 如 何 分 析 未 来 的 这 些 


数据 呢 ? 如 果 每 新 增加 一 个 数据 均 进 行 一 次 NHST 分 析 ， 则 会 引起 多 重 比较 的 问题 ， 使 得 假 


阳性 增加 1。 


与 NHST 不 同 ， 贝 叶 斯 因子 能 够 随 着 新 数据 不 断 地 出 现 而 不 断 地 更 新 ， 从 而 能 够 分 析 实 


验 室 之 外 的 真实 数据 ， 也 能 够 对 数据 进行 有 意义 的 解读 。 从 这 个 角度 来 讲 ， 贝 叶 斯 因子 实时 


监控 证 据 的 优势 与 不 受 抽样 计划 影响 的 优势 是 相互 关联 的 : 这 两 个 优势 均 是 因为 贝 叶 斯 因子 


不 依赖 于 研究 者 收集 数据 的 意图 。 但 是 ， 正 如 我 们 在 后 面 要 提 到 的 ， 虽 然 随 着 数据 更 新 而 更 


新 贝 叶 斯 因子 不 会 影响 到 对 其 解读 ， 但 这 种 忽略 假 阳性 的 做 法 并 不 能 避免 假 阳性 的 升 高 ， 研 


1 对 于 频率 主义 的 分 析 来 说 ， 多 重 比较 是 非 独立 的 ， 校 正 的 方法 减少 但 不 能 消除 一 类 错误 。 
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RAMMA GE EA O 选择 合适 的 先 验 来 控制 假 阳 性 。 


总 之 ， 贝 叶 斯 因子 以 观察 到 的 数据 为 条 件 ， 定 量 地 分 析 当 前 数据 对 Ho 和 H 提供 的 支持 程 


度 。 通 过 实时 地 监控 证 据 强度 的 变化 ， 贝 叶 斯 因子 让 研究 者 可 以 在 收集 数据 的 同时 监控 证 据 


强度 的 变化 。 如 果 预 先 确定 贝 叶 斯 因子 的 停止 闪 值 〈 比 如 BFio KF 10 或 者 BFio 小 于 1/10 时 


停止 收集 数据 )， 研 究 者 能 够 在 证 据 足 够 充足 停止 收集 数据 。 此 外 ， 即 使 缺乏 数据 收集 计划 信 


奶 的 情况 下 ， 贝 叶 斯 因子 仍然 能 够 从 观测 数据 中 得 到 证 据 来 更 加 支持 哪个 假设 。 


3 使 用 JASP 计算 贝 叶 斯 因子 
由 于 贝 叶 斯 因子 的 独特 优势 ， 因 此 很 早 就 有 研究 者 试图 将 其 引入 心理 学 的 研究 之 中 


(Edwards, et al., 1963)。 但 贝 叶 斯 因子 的 计算 在 实际 情况 中 随 着 数据 类 型 和 分 析 类 型 不 同 而 变 


得 更 加 复杂 (相关 公式 可 以 参考 ，Morey & Rouder, 2011; Rouder, et al., 2012; Rouder, Morey, 


Verhagen, Swagman, & Wagenmakers, 2017; Rouder, et al., 2009)。 正 是 由 于 这 个 原因 ， 贝 叶 斯 因 


子 在 心理 学 的 研究 中 一 直 受 到 很 大 的 限制 。 最 近 ， 研 究 者 利用 R 语言 丰富 的 软件 包 ， 开 发 了 


可 视 化 的 统计 工具 JASP (https://jasp-stats.ore/)， 该 软件 采用 与 SPSS 类 似 的 图 形 界面 ， 让 贝 叶 


斯 因子 的 计算 变 得 更 加 容易 实现 ， 本 小 节 将 介绍 JASP 软件 及 其 使 用 i:。 


3.1 JASP 软件 简介 


JASP 是 一 个 免费 、 开 源 的 统计 软件 ， 其 使 用 R 语言 的 工具 包 进 行 数 据 处 理 ， 但 其 使 用 不 


需要 安装 Ro JASP 的 长 期 目标 是 让 所 有 人 能 够 通过 免费 的 统计 软件 进行 最 先进 统计 技术 ， 尤 


其 是 贝 叶 斯 因子 。 


JASP 是 在 心理 学 研究 面临 可 重复 危机 的 背景 下 开发 的 ， 其 开发 理念 如 下 : 第 一 ， 开 源 与 


免费 ， 因 为 开源 应 该 是 科学 研究 的 本 质 元 素 ; 第 二 ， 包 容 性 ， 既 包括 贝 叶 斯 分 机， 也 包括 


i 本 小 节 内 容 部 分 来 自 于 Wagenmakers, E.-J., Love, J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., et al. (2017). 
Bayesian Inference for Psychology. Part II: Example Applications with JASP. Psychonomic Bulletin & Review. 
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NHST 分 析 方 法 ， 而 且 NHST 分 析 方 法 中 ， 增 加 了 对 效应 量 及 其 置信 区 间 的 输出 (Cumming， 


2014); 第 三 ， 简 洁 性 ， 即 JASP 的 基本 软件 中 仅 包 括 最 常用 的 分 析 ， 而 更 高 级 的 统计 方法 又 


可 以 通过 插件 模块 进行 补充 ; 第 四 ， 友 好 的 图 形 界面 ， 例 如 ， 输 出 部 分 随 着 用 户 选择 变量 输 


入 而 实时 更 新 ， 表 格 使 用 APA 格式 。 同 时 ，JASP 的 使 用 递 进 式 输出 ， 即 默认 的 结果 输出 是 最 


简洁 的 ， 更 多 的 结果 输出 可 以 由 研究 者 自己 进行 定义 。 此 外 ， 为 方便 公开 和 分 享 分 析 过 程 ， 


JASP 将 输入 的 数据 与 输出 结果 保存 于 同一 个 后 缀 为 .jasp 的 文件 之 中 ， 每 个 分 析 的 结果 均 与 相 


应 的 分 析 和 变量 数据 相关 联 。 这 种 结果 与 数据 整合 的 文件 可 以 与 开放 科学 平台 Open science 


framework (OSF, https:/osfio/) 兼 容 ， 从 而 做 到 数据 与 结果 公开 。 


3.2 贝 叶 斯 因子 分 析 在 JASP 的 实现 及 其 结果 解读 


目前 ，JASP 中 可 以 实现 多 种 实验 设计 的 贝 叶 斯 因子 分 机， 包括 单 样本 上 检验 、 独 立 样本 t 


检验 、 配 对 样本 + 检验 、 方 差分 析 、 重 复 测量 的 方差 分 析 、ANCOVA 和 相关 分 析 。 对 于 每 一 


种 分 析 ， 均 提供 了 频率 学 派 的 方法 和 贝 叶 斯 的 方法 。JASP 的 贝 叶 斯 因子 分 析 中 采用 默认 先 验 


分 布 ， 但 也 可 以 修改 。 接 下 来 本 文 将 Wagenmakers et al. (2015, https://osf.io/uszvx/)%} Topolinski 


和 Sparenberg (2012) 的 重复 实验 数据 为 例 进行 分 析 ， 说 明 如 何 使 用 JASP 进 行 独 立 样 本 1 检验 。 


其 他 常用 贝 叶 斯 因子 分 析 ， 可 以 进一步 参考 Wagenmakers 等 人 (2017)。 


在 Topolinski 和 Sparenberg (2012) 的 第 二 个 实验 中 ， 一 组 被 试 以 顺 时 针 方 向 拔 动 一 个 厨房 
用 的 钟 ， 而 另 一 组 则 以 逆 时 针 方向 拨 动 。 随 后 ， 被 试 填 写 一 个 评估 经 验 开放 性 的 问卷 。 他 们 
的 数据 表明 ， 被 试 顺 时 针 转 时 比 逆 时 针 转 的 被 试 报告 更 高 的 对 经 验 的 开放 性 (Topolinski & 
Sparenberg, 2012) ( {A 是 Ji Francis, 2013) 。Wagenmakers 等 人 (2015) 采 用 提前 注册 


(preregistration) 的 方式 对 该 研究 进行 重复 ， 在 实验 开始 前 确定 停止 收集 数据 的 标准 : 当 文 


持 某 一 个 假设 的 贝 叶 斯 因子 达到 10 时 即 停止 收集 数据 ， 或 者 每 条 件 下 达到 50 个 样本 后 停止 


收集 数据 。 此 外 ， 预 注册 时 采用 单 侧 1 检 验 的 默认 先 验 ， 即 y= 1 的 柯 西 分 布 。 而 单 侧 的 1 检验 


的 先 验 是 只 有 正 效应 的 柯 西 分 布 ， 即 备 择 假设 为 H : Cauchy (0, 1). 


有 研究 者 认为 ， 默 认 先 验 分 布 Cauchy (0, 1) 是 不 现实 的 ， 因 为 在 这 个 分 布 中 ， 大 的 效应 量 
占 的 比例 太 大 (大 于 1 的 效应 量 在 分 布 中 占 了 $0% 以 上 );， 相反 ， 另 一 些 人 觉得 这 个 分 布 不 现 


实 是 因为 这 个 分 布 中 ， 靠 近 0 的 效应 量 的 比重 太 大 ， 即 效应 量 为 0 是 最 可 能 的 值 。 一 个 避免 


这 些 问 题 的 做 法 是 减 小 柯 西 分 布 的 参数 r。 在 BayesFactor 工具 包 中 ， 默 认 采 用 的 


1 
= 7V2 ~ 0.707 
JASP 中 对 于 单 侧 的 上 检验 同样 采用 这 个 先 验 。7 减 小 意味 着 友和 相似， 他 们 对 观测 数 
据 的 预测 相似 ， 更 难得 到 支持 Ho 的 强 证 据 。 


使 用 JASP 可 以 对 这 批 数据 进行 贝 叶 斯 的 独立 样本 :检验 。 首 先 用 JASP 打开 数据 (File > 


Examples > “Kitchen Rolls”， 或 者 从 https://osf.io/9r423/ 下 载 后 ， 点 击 File > Open)， 然 后 在 


T-tests 的 面板 中 选择 “Bayesian Independent Samples Ttest"。 将 显示 如 图 1 中 间 图 所 示 的 对 话 


框 。 我 们 已 经 将 “mean NEO"” 作 为 因 变量 (dependent variable)，“Rotation" 作 为 分 组 变量 


(grouping variable)。 如 图 2 中 间 所 示 ， 将 Cauchy 先 验 的 宽度 设置 为 JASP 的 默认 值 y= 0.707, 
同时 多 选 了 “Prior and posterior" 及 其 子 选 项 的 “Additional info” 这 两 个 选项 ， 则 得 到 如 图 2 右 侧 
所 示 的 结果 : 与 顺 时 针 相 比 ， 逆 时 针对 经 验 的 开放 性 稍微 高 一 些 ， 这 个 结果 的 方向 与 
Topolinski 和 Sparenberg (2012) 所 假设 的 正好 相反 。 图 2 右 图 下 半 部 分 中 ， 实 线 为 后 验 分 布 ， 
虚线 为 先 验 分 布 。 可 以 看 到 ， 大 部 分 的 后 验 概率 是 负 值 ， 其 的 中 值 是 -0.13，95% 的 可 信 区 间 
从 -0.5 到 0.23. BFor = 3.71， 表 明 观 察 到 的 数据 在 三 假 设 之 下 的 可 能 性 是 在 于 假设 之 下 可 能 


性 的 3.71 倍 〈 我 们 选择 了 BFou， 因 为 BFo = 三 3.71 相对 于 等 价 的 BFio 二 0.27 来 说 更 好 解释 )。 
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图 2 使 用 JASP 进行 贝 叶 斯 独立 样本 + 检验 时 的 操作 截屏 。 软 件 左 侧 是 数据 ， 中 间 为 数据 分 析 选 项 ， 右 侧 为 结 


命 出 。 

通过 这 个 初步 的 展示 ， 我 们 可 以 了 解 到 如 何 进行 贝 叶 斯 独立 样本 1 检验 的 操作 。 接 下 来 展 
示 如 何 按照 提前 注册 过 的 方法 ， 对 这 批 数据 进行 贝 叶 斯 单 侧 独立 样本 检验。 由 于 描述 性 统计 
输出 表明 顺 时 针 是 组 1 而 逆 时 针 是 组 2， 我 们 将 在 ”Hypothesis” 的 面板 处 勾 选 “group 1 > group 


2” 正如 图 3 中 间 所 示 。 
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图 3 使 用 JASP 对 Wagenmakers 等 人 (2015) (Wagenmakers, et al., 2015) 数 据 进行 贝 叶 斯 单 侧 独 立 样本 上 检验 的 示意 


图 。 左 侧 是 数据 ， 中 间 为 操作 过 程 ， 右 侧 为 结果 输出 。 细 节 见 文中 的 描述 。 


单 侧 检验 的 结果 如 图 3 右边 部 分 所 示 。 与 预期 的 一 致 ， 如 果 观 察 到 的 效应 是 与 假设 相反 ， 


则 这 种 使 用 单 侧 检验 将 先 验 知识 整合 到 分 析 之 中 的 做 法 ， 增 加 支持 Ho 的 相对 证 据 《〈 也 见 


Matzke 等 人 (2015))， 即 贝 叶 斯 因子 BFol 从 3.71 增加 到 了 7.74， 意 味 着 观察 到 的 数据 在 Ho F 


的 可 能 是 在 ABT BETERI 7.74 倍 。 

值得 注意 的 是 ， 在 H+ 下 的 后 验 分 布 是 集中 在 OA EIA TUE OLA 3 Alb, SAP 
顺序 限制 是 一 致 的 。 这 一 点 与 传统 频率 主义 的 单 侧 置信 区 间 不 同 ， 传 统 方法 的 单 尾 置信 区 间 
为 [-.23 +oo)s。 虽 然 传统 频率 主义 的 区 间 在 数学 上 是 良好 定义 的 〈 即 ， 它 包括 了 全 部 的 不 会 被 
单 尾 的 a = 0.05 显著 性 检验 拒绝 的 值 )， 但 是 大 部 分 研究 者 会 发 现 这 个 区 间 即 不 好 理解 也 没有 


信息 量 (Morey Hoekstra, Rouder, Lee, & Wagenmakers, 2016). 


$ 可 以 使 用 RR 语言 中 的 ttest 函数 来 得 到 p 值 的 区 间 [-.23 +00). 
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图 4 使 用 JASP 进行 贝 叶 斯 因子 的 稳健 性 分 析 。 


除了 计算 贝 叶 斯 因子 外 ，JASP 还 可 以 进行 稳健 性 分 析 (Bayesian robustness check)， 从 而 


量化 柯 西 先 验 分 布 参数 r 对 贝 叶 斯 因子 的 影响 。 如 图 4 所 示 ， 选 中 “Bayes factor robustness 


check” 的 选项 ， 这 将 得 到 图 4 右 侧 上 面 的 图 。 从 该 图 可 以 看 到 ， 当 Cauchy 先 验 的 > 为 0 时 ， 


Ao S 所 相同 (BFo = 1)，BFo: 随 着 > 的 增加 而 增加 。 在 JASP 的 默认 值 > = 0.707， 贝 叶 斯 因 
T BFo = 7.73; 而 对 于 Jeffey 默 认 的 >=1， 贝 叶 斯 因子 BFo: = 10.75。 因 此 ， 在 一 系列 + 的 
先 验 值 中 ， 当 前 数据 显示 了 对 Ho 的 中 等 到 强 的 证 据 支 持 。 


此 外 ， 还 可 以 勾 选 图 4 中 间 的 部 分 的 “Sequential analysis” KHT M Robustness check”, 


进行 序列 分 析 。 其 结果 见 图 4 右 侧 下 半 部 分 的 图 。 序 列 分 析 显 示 的 是 贝 叶 斯 因子 随 着 着 抽样 
而 变化 的 结果 ， 也 就 是 说 ， 研 究 都 可 以 在 新 数据 收集 到 时 对 证 据 的 积累 进行 监控 和 可 视 化 。 


从 图 中 可 以 看 到 ， 实 际 上 Wagenmakers 等 人 (2015) 并 未 按 预 注册 时 的 y= 1 先 验 来 计算 BFo+ 并 


在 BFo; > 10 或 者 BFio > 10 时 立刻 停止 收集 数据 : 在 55 个 被 试 之 后 ， 虚 线 超过 了 BFo > 10, 


但 是 数据 仍然 继续 收集 。 在 实践 中 ， 每 隔 儿 天 检验 一 次 贝 叶 斯 因子 ， 有 助 于 了 解 贝 叶 斯 因子 
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序列 分 析 的 一 个 优点 是 它 可 视 化 了 贝 叶 斯 因子 在 不 同 先 验 条 件 下 的 收敛 过 程 ， 即 贝 叶 斯 因 


TE log 尺度 上 差异 开始 稳定 不 变 (如 , Bahadur & Bickel, 2009; Gronau & Wagenmakers, 2017). 


在 当前 的 例子 中 ， 当 被 试 数量 达到 35 时 ， 不 同 先 验 下 的 贝 叶 斯 因子 开始 出 现 收敛。 要 理解 为 


什么 在 贝 叶 斯 因子 的 log 值 的 差异 会 在 一 些 初步 的 观测 数据 之 后 不 再 变化 ， 我 们 可 以 假定 数据 


y 包 括 两 个 部 分 yl 和 y2， 根 据 条 件 概 率 公 式 ，BFo:(y) = BFo+ (y1) x BFo-(y2|yl)。 这 个 公式 表 


明 ， 贝 叶 斯 因子 并 非 是 对 不 同 数据 进行 盲目 地 相 乘 ， 实 际 上 公式 中 的 第 二 个 因子 一 一 


BFo+(y2lyl) 一 一 反映 的 是 : 当先 验 分 布 已 经 根据 数据 yl 进行 更 新 后 ， 数 据 y2 对 贝 叶 


斯 因子 


再 次 更 新 (Jeffreys, 1961, p. 333)。 对 这 个 公式 进行 log 转换 后 ， 得 到 log(BFo+ (y)) = log(BFo: 


(y1)) + log(BFo+(y2lyl)). (eB yl 包括 了 足够 的 信息 ， 不 管 r+ 如 何 变 化 ， 通 过 yl 更 新 后 均 
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得 到 大 致 相同 的 结果 分 布 ( 在 大 部 分 情况 下 ， 这 种 情况 很 快 就 会 出 现 )。 而 通过 yl 得 到 的 这 


个 后 验 分 布 ， 又 变 成 了 数据 y2 的 先 验 分 布 ， 即 成 为 log(BFor(y2|y1)) 的 先 验 。 在 这 种 情况 下 ， 


log(BFo:(y2|y1)) 的 值 大 至 相似 (相似 的 先 验 分 布 ， 相 同 的 数据 )。 因 此 ， 不 一 样 的 + 值 会 让 数 


ta yl 产生 不 同 的 后 验 分 布 ， 但 当 数 据 yl 是 足够 的 大 后 ， 使 得 yl 的 后 验 分 布 大 致 相似 ， 此 时 


y2 再 次 对 模型 进行 更 新 的 大 小 也 是 相似 ， 这 就 使 得 log(BFo:(y2|y1)) 在 不 同 的 + 下 相似 ， 
收敛 的 现象 。 
3.3 如 何 报告 贝 叶 斯 因子 结果 


产生 


贝 叶 斯 统计 在 目前 的 心理 学 研究 中 并 不 常见 。 虽 然 大 部 分 杂志 的 编辑 和 审 稿 人 会 欣赏 采用 


更 加 合理 的 统计 手段 ， 但 是 出 于 对 贝 叶 斯 方法 的 陌生 ， 研 究 者 使 用 贝 叶 斯 因子 时 ， 需 要 提供 


相关 的 背景 信息 让 编辑 和 审 稿 人 了 人 解 这 种 背景 。 因 此 ， 除 了 报告 贝 叶 斯 因子 的 结果 之 外 ， 还 


需要 首先 报告 如 下 几 点 ruschke, 2014)。 第 一 、 选 用 贝 叶 斯 因子 的 动机 与 原因 ， 即 为 什么 在 


某 个 报告 中 使 用 贝 叶 斯 因子 而 不 是 NHST。 如 前 所 述 ， 可 以 说 明 贝 叶 斯 因子 提供 了 更 加 丰富 


的 信息 ， 或 者 数据 特点 不 满足 NHST 的 前 提 假 设 〈 如 在 自然 情境 下 收集 的 数据 ， 无 法 判断 数 


据 收集 的 动机 和 实验 假设 )。 第 二 、 描 述 贝 叶 斯 因子 在 模型 比较 中 的 基本 逻辑 。 即 ， 假 定 读者 


并 不 非常 了 解 贝 叶 斯 因子 ， 简 单 地 解释 贝 叶 斯 因子 中 模型 比较 的 思想 。 第 三 、 描 述 贝 叶 斯 因 


子 分 析 中 的 先 验 分 布 以 及 采用 该 先 验 的 原因 ， 先 验 分 布 应 该 或 多 或 少 对 数据 分 析 提 供 一 些 信 


息 。 第 四 、 解 释 贝 叶 斯 因子 ， 将 贝 叶 斯 因子 与 研究 中 的 理论 或 假设 结合 起 来 。 


贝 叶 斯 因子 不 使 用 统计 显著 ， 而 是 描述 数据 对 假设 的 文 持 程度 。 例 如 ， 在 Wagenmakers 等 


(2015) 中 ， 对 Jeffreys 默认 先 验 下 的 贝 叶 斯 因子 结果 进行 如 下 描述 : 


“ 贝 叶 斯 因子 为 BFol = 10.76， 说 明 在 假定 没有 效应 的 ) 零 假设 下 出 现 当 前 数据 的 可 能 性 


是 在 (假定 存在 效应 的 ) 备 择 假设 下 可 能 性 的 10.76 倍 。 根 据 Jeffreys (1961) 提 出 的 分 类 标准 ， 


这 是 较 强 的 证 据 支 持 了 零 假设 ， 即 在 顺 时 针 和 立 逆 时 针 转 钟表 指针 的 人 在 经 验 开 放 性 (NEO) 


得 分 上 没有 差异 。” 


此 外 ， 使 用 贝 叶 斯 因子 进行 分 析 时 ， 还 可 以 报告 探索 性 的 结果 ， 如 稳健 性 分 布 和 序列 分 析 


的 结果 ， 这 将 进一步 丰富 结果 ， 给 其 他 研究 者 提供 更 加 全 面 的 信息 。 


4 总 结 与 展望 
近年 来 ， 科 学 研究 的 可 重复 问题 备 受 关注 (Baker 2016; Begley & Ellis, 2012; Munafo et al., 


2017)， 在 心理 学 (Ebersole et al., 2016; Klein et al., 2014; Open Science Collaboration, 2015). 4 


影像 学 (Poldrack et al., 2017; Zuo & Xing, 2014) 尤 其 如 此 。 而 对 NHST 的 过 度 依赖 正 是 原因 之 一 


(Lindsay, 2015; 胡 传 觅 等 , 2016)。 因 此 ， 研 究 者 们 希望 贝 叶 斯 因子 作为 一 种 假设 检验 方法 ， 能 


改变 当前 心理 学 研究 中 对 NHST 过 度 依赖 的 现状 。 当 然 ， 也 有 研究 者 提出 了 其 他 的 方案 ， 例 


如 ， 将 显著 性 的 阔 限 下 降 到 0.005(Benjamin et al., 2017) 或 是 采用 模型 比较 的 似 然 性 比 


(likelihood ratio) (Etz, in press) 的 方法 。 但 是 值得 注意 的 是 ， 心 理学 研究 重复 失败 的 原因 多 种 
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多 样 ， 仅 改变 统计 方法 不 能 让 心理 学 的 研究 变 得 可 重复 。 数 据 不 开放 以 及 研究 过 程 不 透明 


(Chambers, Feredoes, Muthukumaraswamy, & Etchells, 2014; Lindsay, 2015; Nosek et al., 2015). 


对 探索 性 分 析 与 验证 性 分 析 不 加 区 分 (Kerr, 1998; Wagenmakers, Wetzels, Borsboom, van der Maas, 
& Kievit, 2012)、 以 发 表 论 文 为 核心 的 奖励 体系 (Nosek, Spies, & Motyl, 2012) 等 都 可 能 是 造成 当 


前 研究 可 重复 率 低 的 原因 。 因 此 从 某 种 程度 上 来 讲 ， 对 数据 分 析 过 程 与 数据 结果 保持 开放 与 


透明 是 关键 的 解决 方案 (如 , (Poldrack & Gorgolewski, 2017; Zuo et al., 2014). 


即便 如 此 ， 作 为 一 种 不 同 于 传统 NHST 的 方法 ， 贝 叶 斯 因子 有 助 于 研究 者 使 用 多 种 的 方 


法 对 同一 研究 进行 分 机 ， 从 而 得 到 准确 的 统计 推 上 新 ， 得 到 更 加 接近 真实 的 结论 。 需 要 指出 的 


是 ， 采 用 多 种 方法 进行 分 析 时 ， 需 要 报告 全 部 的 分 析 过 程 和 结果 ， 而 非 选 择 最 有 利于 自己 结 


论 的 分 析 结 果 进 行 报告 。 


4.1 贝 叶 斯 因子 的 不 足 


贝 叶 斯 因子 是 贝 叶 斯 统计 在 假设 检验 方面 的 应 用 ， 而 贝 叶 斯 学 派 与 频率 学 派 统 计 的 争议 


一 直 存 在 (Miller 2011)。 实 际 上 ， 研 究 者 指出 贝 叶 斯 因子 也 可 能 存在 许多 问题 ， 充 分 了 解 这 些 


反对 的 观点 ， 将 更 加 有 利于 我 们 在 研究 中 合理 地 使 用 贝 叶 斯 因子 。 


对 贝 叶 斯 因子 最 强烈 的 质疑 来 自 于 对 其 先 验 概率 的 设 定 ， 可 能 会 认为 先 验 概率 过 于 主 


观 、 过 于 保守 从 而 不 容易 出 现 较 强 的 证 据 等 (Wagenmakers, Marsman, et al., 2017)。 也 有 研究 者 


认为 ， 默认 的 先 验 对 小 的 效应 不 利 。 例 如 ，Bem, Utts 和 Johnson (2011) 认为 ，Wagenmakers 等 


人 (2011) 对 Bem (2011) 的 数据 进行 重新 分 析 时 ， 采 用 了 不 合适 的 先 验 概 率 是 他 们 未 能 得 到 与 


Bem (2011) 一 致 结论 的 原因 。 这 种 批评 实质 上 是 对 贝 叶 斯 因子 的 误 用 ， 即 未 将 先 验 知识 转化 


成 为 合适 的 先 验 概 率 (Hoijtink, van Kooten, & Hulsker, 2016)。 有 趣 的 是 ， 只 要 研究 者 将 自己 使 


用 的 先 验 概率 保持 透明 与 公开 ， 其 他 研究 者 可 以 采用 交叉 验证 ， 从 而 起 到 充分 探索 的 作用 。 
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其 次 ， 也 有 研究 者 认为 ， 贝 叶 斯 因子 没有 考虑 假 阳 性 的 问题 。 在 NHST 框架 之 下 ， 研 究 


者 非常 强调 控制 一 


内 ， 因 此 显著 性 水 
来 调整 浆 值 使 其 一 
了 不 断 地 对 证 据 的 


类 错误 与 二 类 错误 的 问题 。 例 如 心理 学 研究 中 一 般 将 一 类 错误 控制 在 5% 以 


平 设置 为 0.05。 也 正 是 需要 控制 一 类 错误 ，NHST 框架 之 下 有 许多 方法 用 


类 错误 率 不 至 于 太 高 ， 例 如 多 重 比较 校正 的 方法 。 而 贝 叶 斯 统计 主要 是 为 


强度 进行 测量 ， 其 不 考虑 控制 假 阳 性 《〈 即 一 类 错误 ) 的 问题 。 因 此 ， 当 研 


完 者 基于 贝 叶 斯 因 


子 进 行 决策 〈 效 应 是 否 存在 ) 时， 就 可 能 犯 下 一 类 错误 (Kruschke & Liddell, 


2017a)。 在 实际 的 


贝 叶 斯 因子 分 析 中 ， 可 以 通过 先 验 来 解决 多 重 比较 的 问题 (Jeffreys，1938; 


Scott & Berger, 2006, 2010)。 例 如 ， 直 接 说 明 研究 者 预期 假 阳 性 率 有 多 大 (Stephens & Balding, 


2009)。 


还 有 研究 者 指出 ， 基 于 估计 的 统计 总 是 要 比 假 设 检验 更 优 ， 因 为 估计 本 身 将 不 确定 性 考 


虑 进来 。 例 如 ，Cumming (2014) 建 议 使 用 效应 量 及 其 置信 区 间 以 蔡 代 p 值 。 但 是 考虑 到 参数 


估计 与 假设 检验 在 科研 中 均 有 其 相应 最 适用 的 问题 ， 因 此 贝 叶 斯 因子 无 法 直接 与 基于 估计 的 


频率 主义 学 派 统 计 


2017b)。 


进行 比较 。 但 是 ， 贝 叶 斯 统计 中 ， 也 有 基于 估计 的 方法 (Kruschke & Liddell, 


最 后 ， 贝 叶 


因此 ， 一 次 实验 的 


斯 因子 进行 假设 检验 ， 本 质 上 是 证 据 的 不 断 累 积 ， 而 非得 到 二 分 的 结论 。 


结果 可 以 被 看 作 是 试探 性 的 ， 研 究 者 可 以 继续 收集 数据 或 者 进行 重复 实验 


(Ly, Etz, Marsman, & Wagenmakers, 2017). 


4.2 贝 叶 斯 因子 的 应 用 前 景 


贝 叶 斯 因子 作为 基于 贝 叶 斯 统计 的 假设 检验 方法 ， 与 NHST 相 比 具 有 一 些 优势 ， 其 使 得 


研究 者 可 以 直接 检验 数据 是 否 支 持 零 假设 ， 不 再 受 抽样 意图 和 停止 收集 数据 标准 的 影响 ， 从 


而 更 加 灵活 地 进行 


数据 分 析 。 这 些 优 势 可 能 帮助 心理 学 家 更 好 地 在 研究 过 程 中 进行 决策 ， 同 


时 ， 贝 叶 斯 因子 的 采用 也 可 以 促进 研究 者 去 更 加 深入 地 理解 贝 叶 斯 方向 法 的 适用 范围 以 及 前 


提 条 件 等 (Depaoli & van de Schoot, 2017)。 


JASP 的 开发 ， 使 用 贝 叶 斯 因子 的 计算 和 解读 变 得 更 加 人 简便， 研究 者 即便 没有 很 强 的 编程 


基础 ， 也 能 够 使 用 JASP 地 进行 贝 叶 斯 因子 分 析 。 这 可 能 有 助 于 推动 研究 者 更 加 广泛 地 使 用 贝 


叶 斯 因子 。 此 外 ，JASP 本 号 正在 快速 发 展 ， 其 功能 的 深度 和 广度 正在 不 断 地 扩大 ， 新 的 方法 


和 标准 将 不 断 地 整合 到 软件 之 中 ， 可 能 帮助 研究 者 更 科学 地 进行 研究 。 
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The Bayes Factor and Its Implementation in JASP: A Practical Primer 
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Abstract: Statistical inference plays a critical role in modern scientific research, however, the 
dominant method for statistical inference in science, null hypothesis significance testing (NHST), is 
often misunderstood and misused, which leads to unreproducible findings. To address this issue, 
researchers propose to adopt the Bayes factor as an alternative to NHST. The Bayes factor is a 
principled Bayesian tool for model selection and hypothesis testing, and can be interpreted as the 
strength for both the null hypothesis Ho and the alternative hypothesis Hı based on the current data. 
Compared to NHST, the Bayes factor has the following advantages: it quantifies the evidence that the 
data provide for both the Ho and the AM, it is not “violently biased” against Ho, it allows one to monitor 
the evidence as the data accumulate, and it does not depend on sampling plans. Importantly, the 
recently developed open software JASP makes the calculation of Bayes factor accessible for most 
researchers in psychology, as we demonstrated for the t-test. Given these advantages, adopting the 
Bayes factor will improve psychological researchers’ statistical inferences. Nevertheless, to make the 
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analysis more reproducible, researchers should keep their data analysis transparent and open. 
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